Neural Representations have recently been shown to effectively reconstruct a wide range of signals from 3D meshes and shapes to images and videos. We show that, when adapted correctly, neural representations can be used to directly represent the weights of a pre-trained convolutional neural network, resulting in a Neural Representation for Neural Networks (NeRN). Inspired by coordinate inputs of previous neural representation methods, we assign a coordinate to each convolutional kernel in our network based on its position in the architecture, and optimize a predictor network to map coordinates to their corresponding weights. Similarly to the spatial smoothness of visual scenes, we show that incorporating a smoothness constraint over the original network's weights aids NeRN towards a better reconstruction. In addition, since slight perturbations in pre-trained model weights can result in a considerable accuracy loss, we employ techniques from the field of knowledge distillation to stabilize the learning process. We demonstrate the effectiveness of NeRN in reconstructing widely used architectures on CIFAR-10, CIFAR-100, and ImageNet. Finally, we present two applications using NeRN, demonstrating the capabilities of the learned representations.
translated by 谷歌翻译
随着机器学习(ML)更加紧密地编织到社会中,如果我们要负责任地使用它,我们必须更好地表征ML的优势和局限性。现有的ML基准环境(例如董事会和视频游戏)为进度提供了明确定义的基准测试,但是组成的任务通常很复杂,而且通常不清楚任务特征如何对机器学习者的整体难度有所贡献。同样,如果没有系统地评估任务特征如何影响难度,则在不同基准环境中的性能之间建立有意义的联系是一项挑战。我们介绍了一个新颖的基准环境,该环境提供了大量的ML挑战,并可以精确地检查任务要素如何影响实际难度。工具框架学习任务是“董事会清除游戏”,我们称之为“隐藏规则”游戏(GOHR)。环境包括一种表达性的规则语言和可以在本地安装的圈养服务器环境。我们建议一组基准的规则学习任务,并计划为有兴趣尝试学习规则的研究人员提供绩效领导者板。 GOHR通过允许对任务进行罚款,受控的修改来补充现有环境,使实验者能够更好地了解给定学习任务的每个方面如何有助于其对任意ML算法的实际困难。
translated by 谷歌翻译
人工神经网络(ANNS)是普遍存在的机器学习模型,这些模型已应用于各种现实世界分类任务。 ANNS需要大量数据来强大的样本性能,并且许多用于训练ANN参数的算法基于随机梯度下降(SGD)。然而,倾向于在预测任务上最佳地执行最佳的SGD ANN在结束以结束的方式培训,这需要大量模型参数和随机初始化。这意味着培训Anns非常耗时,所产生的模型需要大量的内存来部署。为了培养更多的宽松安卡型号,我们建议使用来自受限优化文献的替代方法,以便安训练和预先预测。特别是,我们提出了用于训练完全连接的ANN的新型混合整数编程(MIP)制剂。我们的配方可以考虑二进制激活和整流的线性单元(Relu)激活Ann,以及用于使用日志似然损耗。我们还开发了一个层展的贪婪方法,一种技术适用于减少ANN中的层数,用于使用我们的MIP制剂的模型预估计。然后,我们将基于MIP的方法与基于SGD的现有方法进行比较,并表明我们能够实现具有竞争力的模型,这些模型具有明显更加解析的样本性能。
translated by 谷歌翻译